<!DOCTYPE HTML>
<html>

<head>
	<link rel="bookmark"  type="image/x-icon"  href="/img/logo.jpg"/>
	<link rel="shortcut icon" href="/img/logo.jpg">
	
			    <title>
    北望你的安
    </title>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1, user-scalable=no" />
    <link rel="stylesheet" href="/css/mic_main.css" />
    <link rel="stylesheet" href="/css/dropdownMenu.css" />
    <meta name="keywords" content="北望你的安" />
    
    	<script async src="//busuanzi.ibruce.info/busuanzi/2.3/busuanzi.pure.mini.js"></script>
	 
    <noscript>
        <link rel="stylesheet" href="/css/noscript.css" />
    </noscript>
    <style type="text/css">
        body:before {
          content: ' ';
          position: fixed;
          top: 0;
          background: url('/img/bg.jpg') center 0 no-repeat;
          right: 0;
          bottom: 0;
          left: 0;
          background-size: cover; 
        }
    </style>

			    
  


    <script src="/js/jquery.min.js"></script>
    <script src="/js/jquery.scrollex.min.js"></script>
    <script src="/js/jquery.scrolly.min.js"></script>
    <script src="/js/skel.min.js"></script>
    <script src="/js/util.js"></script>
    <script src="/js/main.js"></script>
	
</head>
    
		
<!-- Layouts -->



<!--  代码渲染  -->
<link rel="stylesheet" href="/css/prism_coy.css" />
<link rel="stylesheet" href="/css/typo.css" />
<!-- 文章页 -->
<body class="is-loading">
    <!-- Wrapper 外包 s-->
    <div id="wrapper" class="fade-in">
        <!-- Intro 头部显示 s -->
        <!-- Intro 头部显示 e -->
        <!-- Header 头部logo start -->
        <header id="header">
    <a href="/" class="logo">Krystalan</a>
</header>
        <!-- Nav 导航条 start -->
        <nav id="nav" class="special" >
            <ul class="menu links" >
			<!-- Homepage  主页  --> 
			<li >
	            <a href="/" rel="nofollow">主页</a>
	        </li>
			<!-- categories_name  分类   --> 
	        
	        <li class="active">
	            <a href="#s1">分类</a>
	                    <ul class="submenu">
	                        <li>
	                        <a class="category-link" href="/categories/%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0/">强化学习</a></li><li><a class="category-link" href="/categories/%E6%95%B0%E5%AD%A6/">数学</a></li><li><a class="category-link" href="/categories/%E7%AE%97%E6%B3%95/">算法</a></li><li><a class="category-link" href="/categories/%E8%87%AA%E7%84%B6%E8%AF%AD%E8%A8%80%E5%A4%84%E7%90%86/">自然语言处理</a></li><li><a class="category-link" href="/categories/%E9%9A%8F%E7%AC%94/">随笔</a>
	                    </ul>
	        </li>
	        
	        <!-- archives  归档   --> 
	        
	        
		        <!-- Pages 自定义   -->
		        
		        <li>
		            <a href="/tags/" title="标签">
		                标签
		            </a>
		        </li>
		        
		        <li>
		            <a href="/gallery/" title="相册">
		                相册
		            </a>
		        </li>
		        


            </ul>
            <!-- icons 图标   -->
			<ul class="icons">
                    
                    <li>
                        <a title="github" href="https://github.com/krystalan" target="_blank" rel="noopener">
                            <i class="icon fa fa-github"></i>
                        </a>
                    </li>
                    
                    <li>
                        <a title="500px" href="https://www.zhihu.com/people/krystalzhu-an" target="_blank" rel="noopener">
                            <i class="icon fa fa-500px"></i>
                        </a>
                    </li>
                    
			</ul>
</nav>

        <div id="main" >
            <div class ="post_page_title_img" style="height: 25rem;background-image: url(/img/19.jpg);background-position: center; background-repeat:no-repeat; background-size:cover;-moz-background-size:cover;overflow:hidden;" >
                <a href="#" style="padding: 4rem 4rem 2rem 4rem ;"><h2 >CS520 （二）构建KG</h2></a>
            </div>
            <!-- Post -->
            <div class="typo" style="padding: 3rem;">
                <blockquote>
<p>课程主页：<a href="https://web.stanford.edu/class/cs520/" target="_blank" rel="noopener">https://web.stanford.edu/class/cs520/</a><br>课程回放：<a href="https://www.youtube.com/watch?v=ZWM-Dlw3VCM" target="_blank" rel="noopener">https://www.youtube.com/watch?v=ZWM-Dlw3VCM</a><br>参考图书：<a href="https://book.douban.com/subject/34930415/" target="_blank" rel="noopener">https://book.douban.com/subject/34930415/</a><br>相关文章参考：<a href="https://zhuanlan.zhihu.com/p/136224949" target="_blank" rel="noopener">https://zhuanlan.zhihu.com/p/136224949</a>  </p>
</blockquote>
<p>main topic：<strong><em>CS520 lecture2</em></strong>（How to create a knowledge graph？）</p>
<h1 id="1-企业数据集成"><a href="#1-企业数据集成" class="headerlink" title="1.企业数据集成"></a>1.企业数据集成</h1><h2 id="1-1-任务定义"><a href="#1-1-任务定义" class="headerlink" title="1.1 任务定义"></a>1.1 任务定义</h2><p>数据集成从不同数据源中集成数据并为用户提供数据的统一视图</p>
<h2 id="1-2-挑战"><a href="#1-2-挑战" class="headerlink" title="1.2 挑战"></a>1.2 挑战</h2><p>在企业范围，数据源通常有非常多的表格，其中有过多的属性信息、复杂的关系、有些属性甚至难以命名其含义、数据质量参差不齐等等。在关系库间的本体匹配理论上很有效，但实际上并不work。因为有很多表中的命名难以理解，甚至有些表的每列命名为segment1、segment2、…。除了技术层面，有时候因为每个人站的角度不同而导致数据表之间的数据可能会有细微的冲突，例如一个物品的订单数，有的表的计算可能是当用户完成付款的时候订单数+1，而有的表可能是用户点击付款但还没有完成付款就+1。</p>
<h2 id="1-3-集成的常见方法"><a href="#1-3-集成的常见方法" class="headerlink" title="1.3 集成的常见方法"></a>1.3 集成的常见方法</h2><p>（1）电子表格（Spreadsheet）方法<br>数据工程师写一个查询，从不同的数据源中获得想要的数据，并整合成一个CSV文件再交给数据使用者（data consumer）使用，每一天都要进行这样的整合和传输文件。数据使用者可以利用一个数据库去存储每一天得到的整合数据。<br>（2）查询方法<br>每天发邮件传输数据太麻烦了，可以直接把多个表格join起来，然后写一个非常长的查询。但这样很多潜藏的关系也未被挖掘。<br>（3）数据仓库<br>设计一个数据仓库，好建立，表现也不错，具有灵活性和可用性；缺点是存储资源耗费大，需要等待，探索空间有限，不适合大数据。<br>（4）数据湖方法（Data Lake Approach）<br>较为流行的一个方法，将全部数据集中到一个地方（称为数据湖），然后进行转换并将其最终提供给data consumer。能很好解决体积，种类，速度等大数据挑战，具有无限可拓展性。但是查询并未优化，数据都在却不好查到需要的数据。<br>（5）data wrangling方法<br>最新的方法，表现得不错，用一个自助服务工具，data consumer可以自己做自己想查询的问题。它挖掘了不同消费者所提出的问题的相似性，并挖掘同义。  </p>
<h2 id="1-4-总结"><a href="#1-4-总结" class="headerlink" title="1.4 总结"></a>1.4 总结</h2><p>Data-Meaning Gap是最大的挑战。由于开发者和数据消费者对于数据的含义理解不同，所以可能给出噪声数据。如果不能弥补这样的信息差距，就有可能造成输入或输出无用的数据。  </p>
<p>解决方法：<br>简而言之要利用知识图谱，更长远的要利用人员、方法和工具。</p>
<h1 id="2-如何从复杂的分散的数据库中获取信息"><a href="#2-如何从复杂的分散的数据库中获取信息" class="headerlink" title="2. 如何从复杂的分散的数据库中获取信息"></a>2. 如何从复杂的分散的数据库中获取信息</h1><p>解决商业问题的三要素：人、流程、工具。  </p>
<h2 id="2-1-人"><a href="#2-1-人" class="headerlink" title="2.1 人"></a>2.1 人</h2><p>好的data consumer可以像data engineer一样，他们了解创建的数据库，分析师和数据科学家也对他们的业务了解。但存在着差距，所以需要产品经理（data product manager），他是数据消费者和数据生产者之间的桥梁。，他们了解数据的来源以及数据的组织方式。  </p>
<h2 id="2-2-流程"><a href="#2-2-流程" class="headerlink" title="2.2 流程"></a>2.2 流程</h2><p>即我们实际上如何创建知识图谱。<br>（1）捕获知识（分析流程what,why,who,how,where,when、收集文档、做知识报告）<br>（2）实施知识（构建/扩建本体、实施映射、创建提取查询、验证数据）<br>（3）自主服务分析（构建文档、回答商业提问、应用到产品中）    </p>
<h2 id="2-3-工具"><a href="#2-3-工具" class="headerlink" title="2.3 工具"></a>2.3 工具</h2><p>介绍了GRAFO，<a href="https://gra.fo" target="_blank" rel="noopener">https://gra.fo</a>  </p>
<h1 id="3-弱监督理论与系统"><a href="#3-弱监督理论与系统" class="headerlink" title="3. 弱监督理论与系统"></a>3. 弱监督理论与系统</h1><blockquote>
<p>更加详细的弱监督内容可以参考<u><a href="http://wangjiaan.xyz/resources/weak_supervision_notes.pdf" target="_blank" rel="noopener">CS229对应部分的note</a></u></p>
</blockquote>
<h2 id="3-1-问题起源"><a href="#3-1-问题起源" class="headerlink" title="3.1 问题起源"></a>3.1 问题起源</h2><p>机器学习应用 = 模型 + 数据 + 硬件<br>先进的模型和硬件是比较容易获取的，但数据不是。<br>高质量的有监督数据集来自天上人间，通常情况下，我们使用的训练集来源于下水道，他们又脏又繁多。<br>模型的差异被过分放大，人们通常忽略了监督方式的差异。该讲着用了一个例子来论证，他们在医疗方面构建了一个大规模的数据集，并训练了不同的深度学习模型，结果发现不同模型的差异往往在2~3个点以内，但利用数据增强却能获得更加明显的提升效果。所以数据标注质量与数据的数量的优先级应该大于模型选择。  </p>
<p>训练集数据是一个瓶颈，传统的人工标注方法进度缓慢且标注成本十分昂贵，并且标注的结果是静态的，如果突然对要求进行改变，例如原先是2分类，现在多加一个分类，则需要重新标注。利用程序自动标注则能有效解决上述不足，但它会有噪声数据（参考关系抽取当中的远程监督，远程监督就是一种弱监督），所以我们会有一个trade-off。  </p>
<p>对于有限的数据，通常可以使用如下方法来解决：<strong>主动学习（active learning）、半监督学习、迁移学习和弱监督学习。</strong></p>
<h2 id="3-2-弱监督学习优点"><a href="#3-2-弱监督学习优点" class="headerlink" title="3.2 弱监督学习优点"></a>3.2 弱监督学习优点</h2><p>（1）提升泛化能力<br>（2）提升训练数据量<br>（3）知识迁移：如果我们要利用领域专业知识，则弱监督将提供一种简单的，与模型无关的方法，将其集成到我们的模型中。 </p>
<h2 id="3-3-工具"><a href="#3-3-工具" class="headerlink" title="3.3 工具"></a>3.3 工具</h2><p>Snorkel（Snorkel.org）：一个用于为多任务模型提供快速创建训练集的框架。</p>
<h1 id="4-苹果Siri的知识构建"><a href="#4-苹果Siri的知识构建" class="headerlink" title="4.苹果Siri的知识构建"></a>4.苹果Siri的知识构建</h1><blockquote>
<p>目标：构建能表示所有人类知识的知识图谱，利用知识图谱回答开放领域的问题。</p>
</blockquote>
<p>主要有两个工作：Infobox Extraction &amp; Entity Resolution</p>
<h2 id="4-1-Infobox-Extraction"><a href="#4-1-Infobox-Extraction" class="headerlink" title="4.1 Infobox Extraction"></a>4.1 Infobox Extraction</h2><p>2019 NAACL：<u><a href="https://www.aclweb.org/anthology/N19-2018/" target="_blank" rel="noopener">Improving Knowledge Base Construction from Robust Infobox Extraction</a></u></p>
<h2 id="4-2-Entity-Resolution"><a href="#4-2-Entity-Resolution" class="headerlink" title="4.2 Entity Resolution"></a>4.2 Entity Resolution</h2><p>有多个知识图谱，希望能识别出不同知识图谱中相同的实体，这是一个还在进程中的工作。目标是提出一个通用的机器学习模型，让任何工程师都能轻松地集成新的数据。</p>

            </div>

            <!-- Post Comments -->
            

        </div>
        <!-- Copyright 版权 start -->
                <div id="copyright">
            <ul>
                <li>&copy;2020 北望你的安. 版权所有</li>
            </ul>
            
                <span id="busuanzi_container_site_pv">本站总访问量<span id="busuanzi_value_site_pv"></span>次，</span>
				<span id="busuanzi_container_site_uv"> 访客数 <span id="busuanzi_value_site_uv"></span> 人. </span>
			
			<br>
			<span>友情链接：<a href='http://www.demilab.cn' target='_blank'>DEMI实验室</a>&nbsp;&nbsp;&nbsp;<a href='http://zd11024.cn/' target='_blank'>ZD</a></span>
        </div>
    </div>
</body>



 	
</html>
